查看原文
其他

特朗普当选是黑天鹅吗?神兽Apache Kylin早已预知结果

Kyligence apachekylin 2022-04-23

       今天吃瓜群众最欢乐的事情就是围观美国的总统选举,希拉里,还是特朗普?看着各种新闻,刷着朋友圈,感觉我们也在选举似得。从开始到现在,跌宕起伏,故事情节不断超越好莱坞电影,多场拉票辩论跌宕起伏,最后的选举结果也让很多人感到出乎意料,一切又安静了下来了,也让我们一起讨论一下技术问题。

 

       过去的几个月,Kyligence的Apache Kylin核心开发团队一直在紧张的开发下一代ApacheKylin流处理框架,为验证它的可靠性和健壮性,搭建了一套Kylin+ Kafka + Hadoop集群实时接入Twitter消息流,不间断的跑了很长时间。通过分析这些数据,我们用技术的角度见证了这次大选过程,而且有趣的是从这些数据中其实可以更早的看出这次特朗普在投票前就有了很大赢面。接下来我们一起回顾一下这个很有意思的分析。顺便我们也可以知道JustinBieber肯定是EMAs全美音乐奖年度最热门歌手了:)

 

        以下演示数据及截图,均来自由Kyligence搭建的Kylin Streaming在线集群,数据来自Twitter消息流。

 

       首先我们把时间跨度拉长,看一下过去近一个多月的twitter消息流变化(时间粒度到小时):

 

       从这张图上我们看到,语言是英语的twitter(主要是美国)在过去一个月内有两个爆发点:一个是在2016-10-20 01:00 (GMT),另一个是在2016-11-09 04:00 (GMT);按美国东部时区GMT-4计算,第一次时间是10月19日21:00,当时正是美国总统大选第三场辩论赛开始的时间(21:00到22:30)。第二个爆发点,则是总统大选投票的时刻。而其它国家(例如日本和法国)则相对平稳,当然我们也看到日语的twitter也有一定波动。

 

       现在我们将时间窗口调整到10月18日至10月20日,看看当时到底在热烈讨论什么:


       首先,第三场辩论赛进行的那两个小时里,twitter流量确有一个突发增涨,辩论结束后恢复之前的水平。

 

       其次,使用Kylin的TopN统计出的那两天最热门tag是“debatenight”,“debate”,还有“AMAs”(全美音乐奖),显示大家主要是讨论这场辩论;热门tag中有不少跟候选人相关的,如“TrumpTrain”, “TrumpBookReport”,  “TrumpPence”,“CrookedHillary”等:

 

      再把时间范围拉近到正式选举的这几天(11月8日到11月9日),可以发现最流行的tag变成了“ElectionNight”, “ElectionDay”和 “Election2016”,  看来网友们都在参与跟选举投票相关的话题:


       还可以看到,此时Trump 相关的tag有不少且占比较大,而另外一位竞选者则几乎看不到。可以看出美国人民在选举过程中的喜好等信息,从这些热度应该可以大致推测出一些有趣的结论,至少从这次大选的结果来看还是很有说服力的。当然,更准确的分析需要更多的数据整合来分析,但这次ApacheKylin新一代的流式处理框架小试来一下牛刀,下一次选举可以整合更多来自社交媒体等数据源做更丰富的分析了。

 

       另外,Justin Bieber看来肯定是EMAs年度最热门歌手了~

 

       如果仔细看某些tag的时间规律,可以发现“ElectionNight”这个热门词从11月8日出现随后快速增长,在11月9日05:00(GMT)时到达最顶峰,当时是美国东部的凌晨1点,美国西部的8日晚9点,看来美国人民真的是度过了一个不眠之夜。


        如果输入两位候选人的名字,那么可以比较他们在大众中的呼声的高低,显然Trump更受欢迎,有了这个数据,相信你对于最终票选结果肯定不会感到惊讶了,细节,很多时候就隐藏在大数据中,只是我们需要合适的技术和工具去窥探:

 

       关于如何使用Apache Kylin最新版本来实时消费Twitter消息流,搭建NRT流式OLAP大数据分析平台,我们会在随后的文章中详细分享,敬请期待。

 

关于ApacheKylin

       Apache Kylin 是一个开源的分布式分析引擎,为 Hadoop 之上超大规模数据提供亚秒级交互式查询能力,提供标准SQL 查询及在线多维分析(OLAP)能力。ApacheKylin 于2014 年11 月成为Apache 孵化器项,并于 2015年11 月正式毕业成为Apache 软件基金会(ASF)顶级项,是第一个完全由中国团队完整贡献到Apache 软件机会的顶级项。

 

      Apache Kylin最新一代的流式(Streaming) 处理框架即将发布,这个演示的版本即使用的最新的版本所搭建,目前正在进行最后的测试过程中,即将在近日发布。

 

关于Kyligence

       上海跬智信息技术有限公司(以下简称”Kyligence”)是由Apache Kylin (唯一来自中国的 Apache 软件基金会顶级开源项⺫)核心团队组建,专注于大数据分析领域创新的数据科技公司。公司致力于进一步推动Apache Kylin 开源项⺫的发展和演进,拓展全球用户社区;提供基于 Apache Kylin 的下一代企业级数据仓库及商务智能大数据分析平台和解决方案,从私有部署到云计算平台,都能使用户在超大规模数据集上获得极速的洞察能力,以释放数据价值,驱动业务增⻓。

 

       Kyligence提供Kylin的企业级产品KAP,KyligenceAnalytics Platform,是基于 Apache Kylin 的企业级大数据智能分析平台,在超大规模数据集上提供亚秒级分析能力,为业务用户、分析师及工程师提供简单、快捷的大数据分析服务。在继承 Apache Kylin 的高性能查询,易用建模,多协议支持,非侵入式架构等突出优点的同时,KAP在企业用户所关注的实施效率、安全控制、性能优化、自助式敏捷 BI、系统监控等方面进行了全方位的创新和增强,为企业用户带来更大的价值。

 

取得联系

       对这个演示的细节、对Apache Kylin开源项目、对Kyligence提供的企业级产品及服务、对加入这家有趣的创业公司等感兴趣的朋友,请发送邮件到以下邮箱:



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存